#LLM 테스트

Hacker News • 83일 전

IMP 7

에이전트 스킬 성능을 A/B 테스트하는 평가 프레임워크

에이전트(Agent)에 도메인 지식을 주입하는 스킬(SKILL.md)이 실제로 모델의 성능을 높이는지 검증하는 오픈소스 평가 도구입니다. 동일한 프롬프트에 대해 스킬 적용 여부에 따른 결과를 각각 생성한 뒤, 판별 모델(Judge Model)이 두 출력물을 비교 평가하여 성능 향상을 객관적으로 증명합니다. CLI 환경에서 간단히 실행할 수 있으며 직관적인 HTML 리포트를 제공하여 스킬의 실질적인 효용성을 측정하고자 하는 AI 실무자들에게 유용합니다.

에이전트 평가 오픈소스 AI 에이전트